ارئه روشی نوین جهت طبقه بندی متون فارسی

thesis
abstract

متن کاوی به دلیل حجم وسیعی از اطلاعات که به صورت متنی ذخیره شده، پتانسیل کاربردی بسیار بالایی دارد. یکی از مهمترین کاربردهای متن کاوی طبقه بندی متون به لحاظ موضوعی میباشد. در این مقاله سعی بر آن داشته ایم تا با توجه به روشهای مختلف طبقه بندی متون فارسی، روشی نوین در جهت افزایش دقت و کارآیی طبقه بندی متون ارائه دهیم. برای طبقه بندی متون یک روال پنج مرحله ای را در نظر گرفته ایم.مرحله جداسازی کلمات از خبر متن خبر به توکن هایی از کلمات شکسته می شود. در پیش پردازش، داده هایی که هیچ اطلاعات مفیدی درباره کلاس یک خبر ندارند حذف می شوند. گام های مورد نیاز برای پیش پردازش به ریشه یابی و حذف کلمات stop word تقسیم می شوند. برای استخراج ویژگی، روشهای تکرار سند و icf-uni بکار گرفته شده است. برای نمایش بردار ویژگی برای هر خبر از tfو tf-idf استفاده شده است.برای وزن دهی مجدد به بردار ویژگی روش جدیدی با استفاده از ارتباط بین ویژگی ها و موضوع خبر ارائه شده است. برای طبقه بندی متون نیز از الگوریتم های k نزدیک ترین همسایه و رده بندی بیزین چند متغیره با tf استفاده شده است. در این پایان نامه از مجموعه داده های همشهری که شامل بیش از 318 هزار مقاله در زمینه های مختلف (علمی ،اقتصادی ،سیاسی ،ادبی،ورزشی و غیره ) می باشد برای ارزیابی نتایج استفاده شده است. پیاده سازی روش پیشنهادی با ارائه آنتروپی در پیش پردازش برای حذف کلمات حشو و همچنین وزن دهی مجدد ویژگی ها موجب بهبود در نتایج کلی شده است و در بهترین حالت بازشناسی، اخبار اقتصادی با 30 درصد بوده است.

similar resources

سیستم شناسایی و طبقه بندی اسامی در متون فارسی

Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in ...

full text

روشی نوین برای دسته بندی متون فارسی با استفاده از قواعد انجمنی

امروزه مدیریت مبتنی بر محتوای متون، به علت رشد سریع و در دسترس قرار گرفتن متون به شکل دیجیتالی، از اهمیت زیادی برخوردار است. از طرفی دیگر یکی از روش های مهم در سازمان دهی اطلاعات، دسته بندی اسناد زبان طبیعی در دسته های از قبل مشخص شده است. با توجه به اهمیت موضوع و کاری که در این زمینه برای زبان های دیگر دنیا انجام شده است، نیاز به دسته بندی متون فارسی به خوبی احساس می شود. در سال های اخیر، الگو...

روشی نوین به منظور طبقه بندی داده های چند بازگشتی لایدار با استفاده از اطلاعات هندسی مجاورتی و فضای پدیده

داده‌های اخذ شده توسط سیستم‌های لیزر اسکنر هوایی به دلیل برخورداری از مزایایی نظیر دقت هندسی نسبتاً بالا و تراکم مکانی بالای نقاط، اطلاعات هندسی متنوع و منحصر به فردی از سطوح فیزیکی عوارض فراهم می‌آورند. طبقه‌بندی و تفکیک داده‌<...

full text

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می‌گیرد. این موضوع می‌تواند در قالب یک ی...

full text

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می گیرد. این موضوع می تواند در قالب یک ی...

full text

ارائه روشی نوین جهت محاسبه تلفات سالیانه شبکه های توزیع

یکی از مسائل حائز اهمیت در شبکه‌های توزیع، مسئله تلفات این شبکه‌ها می‌باشد. تابع تلفات سالیانه انرژی عمدتاً جزء توابع اصلی در مسائل مربوط به بهره‌برداری و توسعه بهینه شبکه‌های توزیع است. جهت محاسبه تلفات سالیانه انرژی شبکه توزیع نیاز انجام محاسبات پخش بار در کلیه ساعات سال است، که این موضوع نیازمند حجم و زمان بالای محاسبات است. در این مقاله با استفاده از مدل بار شبکه IEEE-RTS، یک مدل بار جدید تح...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه اراک - دانشکده کامپیوتر و فناوری اطلاعات

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023